El Sumidero de Atención Forja un MoE Nativo en las Capas de Atención: Entrenamiento Consciente del Sumidero para Abordar el Colapso de Cabezas
Descubre cómo el sumidero de atención forja un MoE nativo en capas de atención para evitar el colapso de cabezas en modelos transformers.